home *** CD-ROM | disk | FTP | other *** search
/ InfoMagic Internet Tools 1995 April / Internet Tools.iso / infoserv / www / cern / dev / www-talk.9301-9306.Z / www-talk.9301-9306 / text0848.txt < prev    next >
Encoding:
Text File  |  1995-04-24  |  1.6 KB  |  35 lines

  1. William M. Perry (wmperry@indiana.edu) writes:
  2.  
  3. >  Well, right now it would be pretty trivial to modify my emacs browser to
  4. >follow _every_ link it finds and record it.  Only problem would be in
  5. >keeping it from getting in an infinite loop, but that wouldn't be too hard.
  6. >Problem would be disk space & CPU time.
  7.  
  8. Unfortunately I don't think infinite loops is the only problem to be solved. 
  9. For example we have databases of Physics Publications accessable via the web, 
  10. and cross-referenced for citations. This databases contain ~300,000 entries. A 
  11. robot, even if it is smart enough to not get into a loop, could spend many days 
  12. roaming this one database trying to find all the entries. One way around that 
  13. would be to have a list of places where the robot should not look, but finding 
  14. this list would itself be a time consuming task. 
  15.  
  16. Conversly there are many interesting documents that can only be accessed by 
  17. giving a keyword, making it difficult for a robot to discover these documents 
  18. at all.  
  19.  
  20. >  Once I get the browser stable, I can work on something like this - unless
  21. >someone else wants to work on it in the meantime.  Might be more
  22. >stable/faster if written in C though. :)  But then what isn't?
  23. >
  24. >  What type of format would the output have to be in?  It would be very
  25. >easy to spit out "URL :: TITLE" into a file.
  26.  
  27. If anyone does solve the problems and generate a "URL :: TITLE" list (possibly 
  28. a few other fields such as last modified date would be useful too) I would be 
  29. happy to try to make the information available through the database we have 
  30. interfaced to WWW.
  31.  
  32. Tony Johnson
  33.  
  34.  
  35.